本文介绍了IM,这是通过自动回归目标预先训练的视觉模型的集合。这些模型的灵感来自其文本对应物,即大型语言模型(LLMS),并显示出相似的缩放范围。具体来说,我们重点介绍了两个关键发现:(1)视觉特征的尺度具有模型容量和数据量,(2)Objective函数的值与下游任务上模型的性能相关。我们通过预先培训70亿个参数A IM对20亿张图像进行了培训来说明这些发现的实际含义,该参数在Imagenet-1K上具有冻结的躯干,在Imagenet-1K上实现了84.0%。有趣的是,即使在这个规模上,我们也没有观察到性能饱和的迹象,这表明IM可能代表了训练大规模视觉模型的新领域。IM的预训练与LLM的预培训相似,并且不需要任何特定图像的策略来稳定训练。